原文:Advancing AI theory with a first-principles understanding of deep neural networks作者:FaceBook AI 译者:Hugo 18 世纪末到 19 世纪初,英国人瓦特改良了蒸汽机,这也为工业革命提供了动力,并彻底改变了制造业。接下来的一个世纪,热力学定律和统计力学原理得到发展,科学家们才能够在理论层面上全面解释蒸汽机的工作原理和工作过程。 当然,缺乏理论理解并没有阻止人们对蒸汽机的改进,热机原理的发现促使这些改进更加迅速。当科学家们掌握了统计力学之后,很快就制造出了更好、更高效的发动机。统计力学使人们认识到物质是由原子构成的,它是量子力学的发展起源,甚至也推动了我们今天使用的为计算机提供动力的晶体管的发展。 如今,人工智能正处于类似的关头。深度神经网络 (DNNs) 是现代人工智能研究的一部分,从某种角度来说,它目前也是一个 “黑盒子”。 尽管人工智能从业者取得了重大进展,但业界普遍认为 DNNs 过于复杂,无法从基本原理来解释。目前的神经网络模型在很大程度上是通过反复试验来调整的,虽然反复试验可以通过多年的经验进行,但却没有任何统一的理论语言来描述 DNNs 及其功能。 现在,我们即将出版《深度学习理论原理:理解神经网络的有效理论方法》(The Principles of Deep Learning Theory An Effective Theory Approach to Understanding Neural Networks)一书,该研究由 Facebook AI 研究院的 Sho Yaida、麻省理工学院和 Salesforce 的 Dan Roberts 以及普林斯顿的 Boris Hanin 共同完成。 Sho Yaida、Dan Roberts、Boris Hanin 这本书提供了一个理论框架,从第一性原理来理解 DNNs。对于人工智能从业者来说,这种理解可以显著减少训练这些 DNNs 所需的试错次数。例如,它可以揭示任何给定模型的最佳超参数,而不需要经历大量的时间和计算密集型实验。 《深度学习理论原理》将于 2022 年初由剑桥大学出版社出版,手稿现已公开(在 “数据实战派” 后台回复关键词 “DNN”,即可获得 pdf 下载地址)。 斯坦福大学物理学教授 Eva Silverstein 说:“这本书提出了一种基于理论物理学中常见的扩展机器学习方法。看到这些方法在理解和改进人工智能方面的应用,将是一件令人兴奋的事情。” 这只是重塑人工智能科学漫漫长路的第一步,这一项目既源自第一性原理,同时也专注于描述现实模型的实际工作方式。 如果成功的话,这种关于深度学习的普遍理论可能会让更强大的人工智能模型成为可能,甚至可能指导我们建立一个研究智能的普遍方面的框架。